18 de Junio de 2016

Extracción y Generación de Conocimiento a través de los Datos


Estadístico - Universidad del Valle

Sp. Data Science & Sp. Executive Data Science - Johns Hopkins Bloomberg

Msc candidate - Biometria - Universidad de Buenos Aires

twitter: @hr_mr_zork - web: http://camiloherrera.co/

Email: ch@camiloherrera.co

Cronograma


  • Apertura del Evento

  • Socialización R-Users MeetUp

  • Sesión Introductoria Data Science con R

  • Conferencias MeetUp:

    • Cleaning Data and Merging Data Sources with R -> Daniel Valencia

    • Visualizando datos con ggplot -> Maria Isabel Arce

  • Taller en R (Hands-on)

  • Cierre

Usa el Hashtag en twitter #RUsersCali

Ciencia de Datos

Que es Ciencia de Datos

La Ciencia de datos es un campo interdisciplinario que involucra los procesos y sistemas para extraer conocimiento o un mejor entendimiento de grandes volúmenes de datos.


El Científico de Datos

Habilidades de un Científico de Datos

Una Ruta para ser Científico de Datos

Equipos de Data Science

La ciencia de datos es un proceso que requiere un esfuerzo importante, por lo tanto se necesita de un grupo con un comportamiento equivalente a un equipo deportivo:

Equipos de Data Science

Un equipo de ciencia de datos está compuesto por:

  1. Ingenieros de Datos
    • Arquitectura de Datos
    • Infraestructura de Datos
  2. Data science
    • Limpieza de Datos
    • Análisis y Comunicación
  3. Líder del Equipo de Datos

R
Lenguaje de Programación

¿Por qué R?

  • R Es gratis
  • Cuenta con un amplio conjunto de paquetes
  • Acceso a los datos
  • Limpieza de datos
  • Análisis
  • Generacion de Reportes
  • Tiene uno de los mejores entornos de desarrollo - Rstudio http://www.rstudio.com/
  • Tiene un increíble ecosistema de desarrolladores
  • Los paquetes son fáciles de instalar y "juegan muy bien juntos"

¿Por qué R?



R es considerado la "lingua franca" de la ciencia de datos, por esta razón las empresas se están adaptando rápidamente a R para desarrollar sus programas y productos de "Data Science".

Paquetes en R

Plataformas de Analítica y Bigdata que apuestan por R

SQL

Azure

HP

Sofia2 - Indra

La Apuesta de las Industrias por R

R Consortium

La misión explícita del R Consortium es "avanzar en la promoción mundial y el apoyo para el lenguaje de código abierto R"

Big Data


Guía del Viajero Intergaláctico
The Hitchhiker's Guide to the Galaxy

Una de las Historias cuenta, que una raza de seres hiperinteligentes pandimensionales construyeron una computadora llamada Pensamiento Profundo («Deep Thought») fabricada con el único objetivo de descifrar la respuesta definitiva.

«el sentido de la vida, el universo y todo lo demás»


Guía del Viajero Intergaláctico
The Hitchhiker's Guide to the Galaxy

Pensamiento Profundo se toma siete millones y medio de años para dar esa respuesta, la cual, para pesar de muchos, resulta ser 42 sin lugar a dudas.

Cuando la respuesta se revela como 42, se ven forzados a construir una computadora aún más poderosa para calcular la «Pregunta máxima», pero sus planes nunca culminan…

Big Data

R y Big Data

Panorama del Big Data 2016

Visualización y Productos de Datos

D3.Js

Visualización y Productos de Datos

Generar nuestras propias visualizaciones.

Visualización y Productos de Datos

Generar nuestras propias visualizaciones.

  • Gráficos varios dentro de Dashboards

  • Gráficos de Redes (nodos)

  • Get data y plot (Ejemplo MIO)

  • Publica un Tweet con el hashtag: #RUsersCali

  • Gráficos y Social tracking (Partido)

  • Ejemplo Twitter

  • Ejemplo linet (Descargas eléctricas)

  • Data Mining - "What if"

Rstudio y el Hadleyverse

Rstudio y el Hadleyverse

Procesos con Datos

Procesos con Datos

Procesos con Datos

Procesos con Datos

dplyr

Pipe

Apps Shiny

Apps Shiny

Investigación Reproducible

Fin Sesión Introductoria